iT邦幫忙

2025 iThome 鐵人賽

DAY 1
1
生成式 AI

《AI 時代的來臨:生成式 AI 對工作與生活的改變系列 第 1

生成式 AI 的崛起:從 GAN 到 Diffusion,AI 如何創造「無中生有」| DAY 1

  • 分享至 

  • xImage
  •  

《DAY 1》

TL;DR 速讀重點

🚀 快速掌握本文精華

  • 生成式 AI 不只「分析」,更能 無中生有
  • GAN:對抗式訓練,擅長高擬真影像
  • Diffusion:逐步去噪,擅長多樣與創意的「文生圖」
  • 代表工具與案例:StyleGAN、This Person Does Not Exist、Midjourney、DALL·E 2
  • 下一步(Day 2):大型語言模型(LLM)如何理解語意與推理

前言:AI 不再只是「分析」,更能「創造」

過去,我們對 AI 的印象多半停留在資料分析、模式識別與預測。
近年來,生成式 AI(Generative AI) 迅速崛起:從逼真的人臉影像到充滿風格的插畫、音樂與文本,都能透過模型「創造」出來。


1. 生成對抗網路(GAN)

一場「偽造者」與「鑑賞家」的對決

  • 生成器(Generator):負責「偽造」,嘗試生成以假亂真的影像/資料
  • 判別器(Discriminator):負責「鑑定」,區分真假並回饋給生成器

訓練流程(對抗學習)

  1. 生成器產生假樣本
  2. 判別器判斷真假並回饋
  3. 兩者交替訓練、彼此進化
  4. 最終生成器可產生 幾可亂真的結果

代表應用

  • StyleGAN(NVIDIA):高擬真人臉生成
  • This Person Does Not Exist:每次刷新一張「不存在」的人臉
  • Data Augmentation:醫學影像等領域的資料擴充

GAN 訓練流程圖
圖 1:GAN 的生成器與判別器互相對抗、共同進化

小結:GAN 擅長「寫實」,但訓練可能不穩、易出現模式崩塌(多樣性不足)。


2. 擴散模型(Diffusion)

從混沌到清晰的「還原」藝術

  • 前向過程(Forward):對清晰圖片逐步加入噪點,直到接近純隨機
  • 反向過程(Reverse):模型學會一步步去噪,從雜訊「長回」清晰影像

為何適合文生圖?

  • 可結合文字編碼器(如 CLIP/文本嵌入),從噪點出發,朝「文字目標」逐步去噪
  • Midjourney / DALL·E 2:輸入文字描述即可生成具風格且多樣的圖像

Diffusion 去噪流程圖
圖 2:Diffusion 由 Noise 經反向去噪生成清晰影像

小結:Diffusion 具 品質穩定+多樣化 的優勢,尤其擅長文字驅動的創作。


3. GAN vs Diffusion(對照表)

模型 優勢 限制 代表應用
GAN 高度寫實、細節逼真 訓練不穩定、模式崩塌 StyleGAN、BigGAN
Diffusion 多樣性高、訓練較穩定、擅長文生圖 生成步驟多、速度較慢 Stable Diffusion、DALL·E 2、Midjourney

GAN 與 Diffusion 的效果對比
圖 3:GAN 偏擬真、Diffusion 偏創意與風格多變

選型建議(實務)

  • 追求 極高擬真(人臉/照片風):可先評估 GAN(或現成的 StyleGAN 模型)
  • 追求 創意多樣+文字驅動(品牌視覺/插畫/合成):優先考慮 Diffusion 系列
  • 速度限制 的情境:評估加速取樣方法或選擇雲端推理服務

結語:AI 創造力的無限可能

GAN 的對抗學習Diffusion 的逐步還原,生成式 AI 已成為內容創作與設計的 核心引擎
它不只是演算法,更像具有「想像力」的數位合作者,能把你的靈感變成具體作品。

🔜 Day 2 預告:大型語言模型(LLM)如何理解語意、與人對話,乃至展現推理力?


參考連結

#生成式AI #GAN #Diffusion模型 #AI繪圖 #StableDiffusion #Midjourney #DALLE2 #AI創作 #人工智慧 #深度學習


下一篇
大型語言模型(LLM)的力量:從問答到 Agent,自動化智慧助理的進化| DAY 2
系列文
《AI 時代的來臨:生成式 AI 對工作與生活的改變3
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言